学习排名 - 制作特定于查询的项目的排名列表以及一组监督项目 - 是一个普遍兴趣的问题。我们认为的设置是没有分析描述构成良好排名的设置。取而代之的是,我们有一个包含(目标项目,有趣的项目集)对的表示和监督信息的集合。我们在仿真中进行了分析证明,在实际数据示例中,当监督与“这几个相似的项目相似”时,通过使用整数线性程序组合表示来进行排名是有效的。尽管这项提名任务是相当普遍的,但对于特异性,我们从图表中的顶点提名的角度介绍了我们的方法论。本文描述的方法是模型不可知论。
translated by 谷歌翻译
有几篇论文正确包括人工智能(AI)培训数据中的少数群体,以改善对少数群体和/或一般社会的测试推论。一般社会由少数派和多数利益相关者组成。一个普遍的误解是,少数群体的包容性不会单独提高多数群体的绩效。在本文中,我们令人惊讶的是,包括少数样本可以改善多数族裔的测试错误。换句话说,少数群体的包容性会导致多数群体增强(MIME)的性能。给出了哑剧效应的理论存在证明,并发现与六个不同数据集的实验结果一致。项目网页:https://visual.ee.ucla.edu/mime.htm/
translated by 谷歌翻译
现代的高通量单细胞免疫分析技术,例如流量,质量细胞术和单细胞RNA测序,可以轻松地测量多种患者队列中数百万个细胞中大量蛋白质或基因特征的表达。虽然生物信息学方法可用于将免疫细胞异质性与感兴趣的外部变量(例如临床结果或实验标签)联系起来,但它们通常很难适应如此大量的概要细胞。为了减轻这种计算负担,通常有限的单元格是\ emph {sherped}或从每个患者中进行了采样。但是,现有的草图方法无法从稀有细胞群中充分分类稀有细胞,或者无法保留特定免疫细胞类型的真实频率。在这里,我们提出了一种基于内核牛群的新颖素描方法,该方法选择了所有细胞的有限子样本,同时保留了免疫细胞类型的潜在频率。我们在三个流量和质量细胞仪数据集以及一个单细胞RNA测序数据集上测试了方法,并证明了素描的单元格(1)更准确地表示整体蜂窝景观,(2)促进下游分析任务的性能提高,例如根据患者的临床结果对患者进行分类。 \ url {https://github.com/vishalathreya/set-summarization}公开获得用内核放牧的素描实现。
translated by 谷歌翻译
文本的风格分析是研究领域的关键任务,从作者归因到法医分析和人格分析。现有的风格分析方法受到主题影响力,大量作者缺乏可区分性以及对大量不同数据的要求所困扰的。在本文中,确定了这些问题的来源,以及对解决方案的认知观点的必要性。引入了一种新型功能表示,称为基于轨迹的样式估计(TRASE),以支持此目的。在跨域场景中拥有超过27,000名作者和140万样本的作者归因实验,导致90%的归因精度表明该特征表示对这种负面影响不受影响,并且是对风格分析的出色候选者。最后,使用物理人类特征(如年龄)对TRASE进行定性分析,以验证其在捕获认知特征方面的主张。
translated by 谷歌翻译
在机器学习的关键安全应用中,通常要放弃对低信心的预测进行预测很重要。标准弃权方法倾向于专注于优化TOP-K的准确性,但是在许多应用中,准确性并不是感兴趣的指标。此外,在实际环境中,标签转移(训练时间和预测时间之间的班级比例变化)无处不在,现有的弃用方法不能很好地处理标签转移。在这项工作中,我们提出了弃权的一般框架,该框架可以应用于优化任何感兴趣的指标,该指标在测试时可适应标签变化,并与任何可以校准的分类器开箱即用。我们的方法利用了最近的报道,即校准概率估计值可以用作真实类标签的代理,从而使我们能够估计如果弃权示例,则可以估算任意度量的变化。我们在框架下介绍了计算有效的算法,以优化目标特异性,AUROC和加权Cohen的Kappa的灵敏度,并根据JS差异与先前的类概率引入新颖的强基线。关于合成,生物学和临床数据的实验支持我们的发现。
translated by 谷歌翻译
The purported "black box" nature of neural networks is a barrier to adoption in applications where interpretability is essential. Here we present DeepLIFT (Deep Learning Important FeaTures), a method for decomposing the output prediction of a neural network on a specific input by backpropagating the contributions of all neurons in the network to every feature of the input.DeepLIFT compares the activation of each neuron to its 'reference activation' and assigns contribution scores according to the difference. By optionally giving separate consideration to positive and negative contributions, DeepLIFT can also reveal dependencies which are missed by other approaches. Scores can be computed efficiently in a single backward pass. We apply DeepLIFT to models trained on MNIST and simulated genomic data, and show significant advantages over gradient-based methods. Video tutorial: http://goo.gl/qKb7pL, ICML slides: bit.ly/deeplifticmlslides, ICML talk: https://vimeo.com/238275076, code: http://goo.gl/RM8jvH.
translated by 谷歌翻译